import org.apache.spark.sql.SparkSession
val spark=SparkSession.builder().getOrCreate()
import spark.implicits._
val df = spark.read.json("file:///home/ubuntu1/spark/work7/employee.json")
println("1.查询DataFrame的所有数据--------")
df.show()
println("2.查询所有数据，并去除重复的数据-----")
df.distinct().show()
println("3.查询所有数据，打印时去除id字段-------")
df.drop("id").show()
println("4.筛选age>20的记录-----")
df.filter(df("age") > 30 ).show()
println("5.将数据按name分组-------")
df.groupBy("name").count().show()
println("6.将数据按name升序排列-----")
df.sort(df("name").asc).show()
println("7.取出前3行数据-------")
df.take(3)
println("8.查询所有记录的name列，并为其取别名为username-----")
df.select(df("name").as("username")).show()
println("9.查询年龄age的平均值----")
df.agg("age"->"avg").show()
println("10.查询年龄age的最小值------")
df.agg("age"->"min").show()
